LLaVA(Large Language and Vision Assistant)
本記事では、LLaVA(Large Language and Vision Assistant)に関して、論文内容の紹介や使用方法などをまとめる
書誌情報
タイトル:Visual Instruction Tuning
掲載元 :NeurIPS
掲載年 :2023
著者 :Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee
何をしている論文?
マルチモーダルモデル「LLaVA(Large Language and Vision Assistant)」の提案
画像とテキストを用いた対話が可能なモデル
画像エンコーダにはViTを、LLMにはVicunaを採用
画像とテキストを組み合わせた学習用データをChatGPTで作成
データセット作成用のパイプラインを提案
評価用のベンチマークを新たに2つ提案
手法の概要
GPTを用いた学習データ作成
画像とテキストを用いた対話データを作成
LLMには画像が入力不可→画像の代わりに、「画像のキャプション」と「バウンディングボックスの座標」を入力
データ生成時はプロンプト内にいくつか例を与える
3つの形態の質問-回答データを作成
会話(Conversation) :画像内の物体の個数や場所など、明確な答えを持つ質問
詳細な説明(Detailed Description) :どのような画像か詳細に説明させる質問
複雑な推論(Complex Reasoning) :画像に関する複雑な推論を必要とする質問
LLaVAのアーキテクチャ
LLMにはVicunaを、画像エンコーダにはCLIPを採用
VicunaはLLaMAをChatGPTのデータでFine-Tuningしたもの
CLIPの画像エンコーダはVision Transformer(ViT-L/14)のもの
画像を、LLMの言語埋め込み空間に射影
画像エンコーダで、画像の特徴量Zvを抽出
線形層で、Zvに射影行列Wを掛け合わせる
画像トークンHvが獲得できる
学習可能なパラメータは、LLM本体と射影用線形層のみにある
LLaVAの訓練
①射影用線形層を訓練
まず、画像をLLMが理解可能な空間へ射影するProjection層を訓練する
画像とキャプションのペアデータを作成し、1ターンの会話データを作成
画像と質問文を入力し、質問文への回答を自然言語で出力
CLIPとLLMの重みは固定
②End-to-Endの訓練
Projection層とLLMを訓練
チャット形式の応答や複雑な推論が可能になるように訓練する
CLIPの重みは固定
論文内では、ChatbotとしてのLLaVAの評価と、ScienceQAベンチマークを用いたLLaVAの評価を実施
工夫している点
画像と対話型自然言語データセットをChatGPTから作成
画像特徴量をLLMの言語空間に埋め込むために、シンプルな線形層(Projection層)を作成
評価実験の方法と結果
ChatbotとしてのLLaVAの評価
テキストのみのGPT-4を評価器として利用
画像、質問、回答の三つ組みを作成
評価対象のモデル(例えばLLaVA)には画像と質問を入力し、質問への回答を出力(1)
テキストのみのGPT-4には画像のキャプションと質問を入力し、質問への回答を出力(2)
(1)(2)で得られた出力と、質問、画像のキャプションをテキストのみのGPT-4に入力し、評価対象のモデルによる出力を「有用性」「関連性」「正確性」「詳細度」の観点から評価
評価用に二つのベンチマークを設計
LLaVA-Bench(COCO)
COCO-Val-2014データセットから画像を30枚収集
30枚の画像それぞれを用い、3種類の質問データを作成
LLaVA-Bench(In-the-Wild)
より困難なタスクにおけるモデルの汎化性能を評価
24枚の画像と60個の質問で構成
評価結果
学習データのアブレーションスタディ
LLaVA-Bench(COCO)で評価
②End-to-Endの訓練により推論性能が大幅に向上
詳細な説明と複雑な推論の学習を通して、会話能力が向上
既存のVLMとの比較
LLaVA-Bench(In-the-Wild)で評価
比較手法は「OpenFlamingo」「BLIP-2」
比較手法に対してLLaVAは高い性能を発揮
ScienceQAベンチマークでの評価
ScienceQAデータセット
3つのテーマ、26のトピック、127のカテゴリ、379のスキルにまたがる領域の多様性を持つ21kのマルチモーダル多肢選択問題
新たなSoTA性能を発揮
面白いと感じた点
画像を扱う箇所に既存のエンコーダとシンプルな線形層のみを用いたところ
多様なベンチマークを通してモデルの性質を詳細に分析したところ
そのほかの感想
ややChatGPT及びGPT-4頼みなモデルであると感じた
(2025/04/24追記)
Ollamaを用いたLLaVAの試運転方法はこちら LLM「Vicuna」について
ShareGPTというデータセットでLLaMAをFine-Tuningしたオープンソースの対話型LLM
GPT-4に匹敵する性能を持つ
(2025/04/29追記)
LLaVA派生モデル
v-1.5
CVPR2024
二層のProjection層と活性化関数GELUを使用
多数のベンチマークでSoTAを達成
NEXT(v-1.6)
高解像度の画像にも対応
Ollamaで利用可
UHD
高解像度の画像に対応
LLaVA-UHD: an LMM Perceiving Any Aspect Ratio and High-Resolution Images
llava-calm2-siglip
サイバーエージェント製
日本語入出力対応
llava-jp-1.3b-v1.1
日本語入出力対応
高解像度の画像に対応
軽量かつ高性能
日本語対応Vision-Language Modelまとめ記事